线性代数
矩阵基础
定义
从空间向量
矩阵的定义
定义对于
其中
按惯例
称为行 row 成为列 column
这两个特殊的矩阵也成为行向量(row vectors) 或 列向量 (column vectors)
等价:
通过堆叠,矩阵
加法和乘法
加法:矩阵
乘法:矩阵
为了计算元素,我们将
解析几何中:称之为 行和列的 点积(dot product)
用符号
备注 :矩阵只有在“相邻”维度匹配时才能相乘。例如,
备注 :矩阵的乘法不是逐元计算,即
这种逐元素的乘法通常出现在编程语言中,称之为 Hadamard 积 (Hadamard Product)
例:
矩阵乘法是左乘,
单位矩阵定义
在
对角线为 1, 其他为0
已经定义了矩阵乘法、矩阵加法和单位矩阵,让我们看看矩阵的一些性质
结合律 (Associativity)
分配律 (Distributivity)
与单位矩阵乘法 :对于
矩阵的逆和转置
**定义 2.3 逆 **
考虑一个方阵
则
不过,不是所有矩阵
定义 2.4 转置
对于矩阵
通常,
类似于
定义 2.5 对称矩阵
若对于矩阵
只有
如果矩阵
与标量向乘
对于标量
结合律
分配律
线性方程组的紧凑表示
线性方程组可以用矩阵形式表示为
线性方程组求解
特解和通解
考虑方程组
这个方程组有两个方程和四个未知数。因此,一般来说,我们可以得到无穷多个解。这个方程组的形式为极简形式,前两列都由一个0和一个1组成.
目标是找到标量
其中
为矩阵的第 列 为方程组的右侧
对于该方程组,可通过取 第一列的42倍 和第二列的8倍得到解
关键在于
,对于
因此,方程组的一个解为
然而,这并不是这个线性方程组的唯一解。要得到其他解,我们需要创造性地使用矩阵的列以非平凡( non-trivial) 的方式生成向量
我们使用前两列(它们的形式非常简单)表示第三列
则有
同样地,我们使用前两列表示方程组中矩阵的第四列,对于任意
把所有的解放在一起,得到方程组的所有解,称为通解(general solution) ,以集合形式表示为
备注
线性方程组的一般求解包括以下三个步骤
(1) 找到
的特解(2) 找到
的所有解(3) 结合步骤 (1)(2)中的解,得到通解
注意:特解和通解都不是唯一的
上例中的线性方程组很容易求解,因为方程组中的矩阵有特别简便的形式,这使我们能够通过代值检验得到特解和通解。然而,一般方程组不会是这种简单的形式。
幸运的是,有一种构造性的算法可以将任何线性方程组转换成这种特别简单的形式:高斯消元法( Gaussian elimination)。 高斯消元法的关键是对线性方程组进行初等变换 ,将方程组转换成简单形式。然后,我们可以用以上三个步骤求解线性方程组
初等变换
求解线性方程组的关键是初等变换(elementary transformations) ,它能在解集保持不变的前提下,将方程组变换为更简单的形式
(1) 两个方程(表示方程组的矩阵的行)的交换
(2) 方程(行)乘一个常数
(3) 两个等式相加
备注 :步骤(1) (2)(3)可以组合
例子
对于
我们首先把这个方程组转换成紧致的矩阵表示
而是建立**增广矩阵(augumented matrix)**形式为
我们用垂直线把方程组的左手边和右手边分开。
交换第一行
我们使用上式中指定的变换后,得到
我们用
\ \rightsquigarrow \left[ \begin{rrrrr|r} 0 & 0 & 0 & 0 & 0 & a+1 \end1 & -2 & 1 & -1 & 1 & 0 \0 & 0 & -1 & 1 & -3 & 2 \0 & 0 & 0 & -3 & 6 & -3\ \right] \quad \begin \end\\cdot (-1) \\cdot (-\frac{1}{3})\\
\ \rightsquigarrow \left[ \begin{rrrrr|r} 0 & 0 & 0 & 0 & 0 & a+1 \end1 & -2 & 1 & -1 & 1 & 0 \0 & 0 & 1 & -1 & 3 & -2 \0 & 0 & 0 & 1 & -2 & 1\ \right] $$
这个(增广)矩阵现在变成一种简便的形式——行阶梯形式(row-echelon form,REF) 。将这个紧凑的表示法还原为显式表示法,我们得到
仅当
通解
下面,我们将详细介绍一种获得线性方程组特解和通解的构造性方法
备注 :主元和阶梯结构
行的前导系数 (leading coefficient,从左开始的第一个非零数)称为主元(Pivots ) ,并且始终严格地位于上方行的主元的右侧。因此, 任何行阶梯型(row-echelon form)的方程组都具有“阶梯(staircase)”结构。
定义 行阶梯型
一个矩阵为**行阶梯型(row-echelon form)**矩阵需满足:
所有只包含零的行都位于矩阵的底部;相应地,所有至少包含一个非零元素的行都位于只包含零的行的顶部。
只看非零行,从左边开始的第一个非零数字(也称为主元或前导系数)总是严格地位于它上面的行主元的右边。
备注 :基本变量和自由变量
行阶梯型的主元对应的变量称为基本变量(basic variables) ,其他变量称为自由变量(free variables)。
例如,对于
其中
为基本变量 为自由变量
备注: (求特解)
当我们需要确定一个特解时,行阶梯型方便了我们求解。为了做到这一点,我们用主元列来表示方程组的右侧
即
在上一个例子中,试图找到
从这里,我们相对直观地发现
备注 :行最简阶梯型
一个方程组为行最简阶梯型 (Reduced Row Echelon Form ,也称为 row-reduced echelon form 或 row canonical form )需要满足
它是行阶梯型
每个主元都为1
主元所在列是唯一的非0项
备注 :高斯消元法
高斯消元法(Gaussian elimination )是一种通过初等变换将线性方程组转化为行最简阶梯型的算法。
例 2.7行最简阶梯型
有以下行最简阶梯型矩阵(粗体1为主元):
求
第二列是第一列的3倍(我们可以忽略第二列右边的主元列)。因此,为了得到
现在,我们来看看第二个非主元列——第五列
第五列可以由第一个主元列的3倍、第二个主元列的9倍和第三个主元列的−4倍表示。我们需要根据主元列的索引,并将第五列转换为第一列的 3倍、第二列(非主元列)的0倍、第三列(第二个非主元列)的9倍和第四列的**
总之:
Minus-1技巧
下面,我们将介绍一个实用的技巧来求解齐次线性方程组
其中
首先,我们假设
其中
含主元的列
通过添加
扩展所添加行的形式为
所以增广矩阵
更准确的说,这些列构成
例子
对于之前的矩阵
现在我们通过在对角线上的主元缺失的地方添加
我们可以通过取
与之前例子的结果相同
求逆
为了计算
我们可以把它写成一组线性方程组
这意味着,如果我们把增广方程组简化成行最简阶梯型,我们就可以在方程组的右手边读出改矩阵的逆。因此确定矩阵的逆,相当于求解线性方程组。
例2.9 利用高斯消元法求矩阵的逆
求
的逆
解:
写出增广矩阵
并利用高斯消元法将其化为行最简阶梯型
这样,所需的逆矩阵就在其右侧给出了
可以通过
求解线性方程组的算法
在下文中,我们将简要讨论
这里我们假设存在解
如果没有解,需要求助于近似的解的办法,后面的线性回归,这里不作介绍
如果我们可以确定
即使用Moore-Penrose伪逆 (Moore-Penrose pseudo-inverse)
这种方法的缺点是需要对矩阵的积和
高斯消元法在计算行列式、检查向量集是否线性独立、计算矩阵的逆、计算矩阵的秩和确定向量空间的基时起着重要的作用。高斯消元法是一种直观而有建设性的方法来解决一个含成千上万变量的线性方程组。然而,对于具有百万变量的方程组,这是不切实际的,因为所需的运算量是按联立方程的数量的立方增长的。
在实践中,许多线性方程组都是通过定常迭代法(stationary iterative methods) 间接求解的,如Richardson方法、Jacobi方法、Gauß-Seidel方法和逐次超松弛方法,或Krylov子空间方法,如共轭梯度、广义最小残差或双共轭梯度。
设
通过寻找适当的
引入范数
向量空间
线性方程组可以用矩阵-向量表示法来表示
更深入地了解向量空间,即向量所在的结构化空间
本章的开头,我们非正式地将向量描述为相加并乘以标量后,仍然是相同类型的对象。现在,我们准备将其形式化,我们将首先介绍群的概念,它包含一组元素和一个定义在这些元素上的操作,该操作可以保持集合的某些结构完整
群
群在计算机科学中扮演着重要的角色。除了为集合上的运算提供一个基本框架外,它们还被大量应用于密码学、编码理论和图形学
定义 2.7 群
考虑一个集合
1
在 运算下的封闭性(Closure):2 结合律(Associativity):
3 单位元(Neutral element):
: and4 逆元(Inverse element):
: and ,其中 e是单位元。我们经常写 来表示 的逆元
备注
逆元是针对运算
阿贝尔群:
例如
是一个阿贝尔群 不是一个群:虽然 有一个单位元,但是缺少逆元 不是一个群:虽然 包含一个单位元 ,但是任何 的逆元都不是整数, 不是群:因为 不具有逆元 是阿贝尔群 , , 是阿贝尔群,前提是 是按分量定义的,即 为逆元; 为单位元 , -矩阵集是阿贝尔集,前提是具有上面例子一样的分量加法仔细看
,即之前定义的具有矩阵乘法的 -矩阵集封闭性和结合性来自于矩阵乘法的定义
单位元:单位矩阵
逆元:如果矩阵
的逆存在( 是正则的),那么 是 的逆元,在这种情况下, 就是一群,称为 一般线性群(general liner group)( ,
定义一般线性群
正则(可逆)矩阵集
向量空间
当我们讨论群时,我们研究集合
定义向量空间
实值向量空间(Vector Space)
其中
1
2 分配律
3 结合律(外部操作)
4 关于外部操作的单位元:
元素
备注
向量乘法(vector multiplication)
(外积 outer product) (内积/标量积/点积 inner/scalar/dot product)
例 向量空间重要例子
是一个向量空间,其运算定义如下相加:对于
与标量相乘:对于
是一个向量空间相加:对于
逐元素相加与标量相乘,记住
相当于 也是向量空间
备注
在下面,当
备注
向量空间
这样简化了向量运算的表示法。但是我们要区分
来表示列向量 来表示行向量,即列向量的转置
向量子空间
向量子空间是原始向量空间中的集合,且具有这样的性质
对子空间的元素进行向量空间运算,结果不会超出子空间。从这个意义上说,它是封闭的
向量子空间是机器学习的一个重要概念,利用向量子空间进行降维
定义向量子空间
令
如果
为了确定
1
2
关于外部操作:
关于内部操作:
例向量子空间
对于每个向量空间
具有
非齐次线性方程组
任意子空间的交集是它们本身的子空间
备注
对于
线性独立
考虑一个问题,可以用向量(向量空间的元素)做什么。从向量空间的定义中,可以得到,将向量相加,然后用标量相乘,封闭性能保证在同一个向量空间中得到另外一个向量。有没有可能找到一组向量,允许我们可以用这些向量相加并缩放后得到向量空间中的其他所有向量?实际上,这组向量是一组 基(basis) ,我们将在后面讨论它。在此之前,我们需要介绍一下线性组合和线性独立
定义2.11线性组合
考虑向量空间
称为向量
关注一组向量的非平凡线性组合来表示
定义2.22线性相关与线性无关(独立)
考虑一个向量空间
如果存在一个非平凡线性组合,使得
如果只有平凡解的存在,即
线性独立是线性代数中最重要的概念之一 。直观地说,一组线性无关(即线性独立)的向量是由没有冗余的向量组成的,也就是说,如果我们把这些向量中的任何一个去掉,我们就会失去一些东西。在接下来的几节中,我们将进一步形式化这种直觉。
例线性相关的向量
一个地理例子可能有助于理解线性独立的概念。如图2.7所示,在 Nairobi (Kenya)的人描述Kigali (Rwanda) 所在地可能会说,“你可以先往西北方向506公里到Kampala (Uganda),然后往西南方向374公里”。这足以说明 Kigali的位置,因为地理坐标系可被视为二维向量空间(忽略海拔和地球曲面)。这个人可能会补充说,“大约在西边751公里处“。尽管最后一句话是对的,但鉴于前面的信息,这句话没有必要说。在此示例中,“506 km西北”矢量(蓝色)和“374 km西南”矢量(紫色)是线性独立的。这意味着西南方向的矢量不能用西北方向的矢量来描述,反之亦然。然而,第三个“751 km west”向量(黑色)是其他两个向量的线性组合,这使得这三个向量线性相关。同样地,给定“西751公里”和“西南374公里”,可以线性组合得到“西北506公里”。

图2.7 二维空间(平面)中线性相关向量的地理示例(基本方向的粗略近似)。
备注 :以下属性可用于确定向量是否线性独立:
k个向量要么线性相关,要么线性独立,没有第三种选择
向量
只要有一个 向量或者有两个向量相同,则它们是线性相关的向量
,是线性相关的,当且仅当(至少)其中一个是其他的线性组合。特别是,如果一个向量是另外一个向量的倍数,即 ,那么集合 是线性相关的。检验向量
是线性无关的有效方法是采用高斯消元法:将所有的向量写为矩阵 的列,并进行高斯消元,知道矩阵为行阶梯型(注意:这里不需要行最简阶梯型)主元列表示与左侧的向量线性无关(线性独立)的向量。注意构建矩阵时对向量排序
非主元列可以表示为其左侧主元列的线性组合。例如,行阶梯矩阵
告诉我们第一列和第三列是主元列。第二列是非主元列,它是第一列的三倍。
当且仅当所有列都是主元列时,所有列向量才是线性独立的 。尽管只有一个非主元列,这些列(以及相应的向量)也是线性相关的
例
考虑
为了检验
\lambda_2\begin1\1\0\2\end
\lambda_1\begin-1\-2\1\1\end $
这里,矩阵的每一列都是主元列。因此,不存在非平凡解。只有
因此向量
备注
考虑一个向量空间
定义矩阵
我们想检验
这意味着
备注
在向量空间
例
考虑一组线性无关向量
向量
是否线性无关(线性独立)。
线性方程组对应的矩阵为
对应的最简阶梯型矩阵为:
可以看到相应的线性方程组是有非平凡解的,最后一列不是主元列,
基和秩
在向量空间
生成集和基
定义 生成集和生成空间
考虑一个向量空间
则称
如果
生成集是张成向量空间(或子空间)的向量集,即,向量空间(或子空间)中的每个向量都可以表示为生成集中的向量的线性组合。
下面更具体描述向量(子)空间的最小生成集
定义 基
考虑向量空间
则称
设
是 的基 是最小生成集 是 中向量的一个最大线性无关(线性独立)集合,也就是说,在这个向量集中添加任何其他向量都会使它线性相关每个向量
都是 中向量的线性组合,且每个线性组合都是唯一的,即其中
且:
例
在
中,规范/标准基(canonical/standard basis) 为 中有不唯一的基:集合
是线性独立的,但不是
的生成基(也不是基): 例如,向量 不能通过 中的向量线性组合得到。
备注
每个向量空间
我们只考虑有限向量空间
备注
向量空间的维度不一定是向量中元素的个数。例如向量空间
备注
子空间
1 把生成向量写成 矩阵
的列2 确定
的行阶梯型3 与主元对应的生成向量就是
的
例 基的确定
向量子空间
我们关注
对应矩阵为:
利用线性方程组的基本变换规则,得到了行阶梯型矩阵:
由于主元列对应的那组向量是线性独立的,因此我们从行阶梯型可以看出
秩
矩阵
备注
矩阵的秩有一些重要的性质
,即列秩等于行秩序 的列张成一个子空间 , 。在后面内容中我们将这个子空间称为像或值域。通过对 应用高斯消元法来确认主元列,可以找到 的基 的行张成一个子空间 , 。通过对 应用高斯消元法确认主元列,可以找到 的基。对于任意方阵
, 是正则的(可逆) 当且仅当对于任意
和 ,线性方程组 有解当且仅当 ,其中 表示增广矩阵对于任意
的解的子空间维数为, 。后面我们会称这个子空间为核或零空间如果矩阵
的秩等于相同维数矩阵的最大可能秩,则它拥有满秩(full rank) 。也就是说满秩矩阵的秩是行数或列数中的较小者,即 。如果矩阵不满足满秩要求,则称它 不满秩(rank deficient)
例
有两个线性独立的行/列,所有使用高斯消元法来确定秩:
有两个线性独立的列,所以
线性映射
研究向量空间上结构不变的映射,这允许我们定义坐标的概念。之前我们说过向量相加并乘以标量得到的对象仍然是一个向量。这里我们希望在应用映射时保留此特性:
考虑两个实数向量空间
可以用定义来概括
定义 线性映射
对于向量空间
则称
这使得我们可以把线性映射用矩阵表示。之前的内容:将向量集合用矩阵的列表示。在处理矩阵的时候,我们必须判断矩阵所表示的内容:是线性映射还是向量集合。后面会看到关于更多的线性映射的内容,介绍一些特殊映射
定义 单射,满射,双射
考虑一个映射
**单射的(Injective) **:
满射的(Surjective):
双射的(Bijective): 既是单射的,也是满射的
如果
在这些定义下,介绍一些向量空间
同态(Homomorphism):
线性同构(Isomorphism):
双射自同态(Endomorphism):
线性自同构(Automorphism):
双射定义
: 为 中的恒等映射或单位自同构(identity mapping or identity automorphism)
例 同态
这也证明了为什么复数可以在
定理2.17
有限维向量空间
定理2.17指出在两个相同维度的向量空间之前存在一个线性的双射映射。直觉上,意味着相同维度的向量空间是相同的,它们可以相互转化而不产生任何误差。
定理2.17也给出了之前将
备注
考虑向量空间
对于线性映射
和 ,那么 也是线性映射。如果
同构,那么 也是同构的。如果
都是线性的(同态的),那么 和 也是线性的(同态的)。
线性映射的矩阵表示
任何
并称这个
备注 :基需要是有序的,所谓的“第一个坐标,第二个坐标,等”才是有意义的
备注 :目前为止定义的符号有点多,在这里总结以下
为有序基 为(无序的)基 是列为 的矩阵
定义 坐标
考虑一个向量空间
一个基有效定义了一个坐标系。我们熟悉的笛卡尔坐标系,它由标准基向量

在图2.8中,
例
几何向量

图中
备注
对于一个
现在我们准备在 矩阵 和 有限维向量空间 之间的 线性映射 建立一个显示联系
定义2.19 变换矩阵
考虑向量空间
我们称
考虑(有限维) 向量空间
如果
这意味着可以使用变换矩阵将相对于
例 变换矩阵
考虑 同态映射
可得关于
其中
例 向量的线性变换

图2.10 向量线性变化的三个例子
(a) 初始数据
(b) 旋转45°
(c) 水平坐标拉伸
(d) 反射、旋转和拉升的组合
考虑
图2.10给出了一组向量线性变换的三个例子。图(a) 显示了
当我们矩阵使用
如果
(d)显示了对原始图形使用
基变换
接下来,我们观察下当改变
考虑
和
下面我们研究需要研究
即:如果我们选择从基
备注
向量
例 基变换的必要性
考虑一个关于
如果我们定义一个新基:
可以得到一个关于
它比
在下面,我们将研究将一个基的坐标向量转换成另一个基的坐标向量的映射。我们首先陈述主要结论,然后给出解释。
定理2.20 基变换
对于线性映射
和
以及
其中,
证明
把
同理,把
我们定义
为将相对于 的坐标 映射到 的 变换矩阵 是将相对于 的坐标 映射到 的 变换矩阵
特别地,
我们将从两个角度来看
第一,通过映射
我们首先将新的基向量
或者,利用
比较
所以
则:
证毕。
定理2.20高速我们,对于

图2.11 :对于一个同态映射
图2.11说明了这种关系:考虑一个同态映射
假设我们已知关于有序基
首先,我们找到了线性映射
然后,我们使用
最后,我们使用线性映射
因此,我们可以把线性映射
具体的说,我们使用
定义2.21 等价
如果存在正则矩阵
定义2.22 相似
如果存在正则矩阵
备注:
相似矩阵总是等价的。然而,等价矩阵不一定相似。
备注:
考虑向量空间
鉴于此,我们可以从构建线性映射的角度来看待基的变化:

为关于基 , 的线性映射 的变换矩阵 为关于基 , 的线性映射 的变换矩阵 是线性映射 (自同构)的变换矩阵,它用 表示 。通常, 是 中的恒等映射。 是线性映射 (自同构)的变换矩阵,它用 表示 。通常, 是 中的恒等映射。
如果我们(非正式地)用基的形式表示变换,那么有:
以及
注意,(2.116)中的执行顺序是从右向左的,因为向量是在右侧相乘,即
例基变换
考虑一个线性映射
变换相应的标准基为:
我们求
的变换矩阵
式中,
因此,我们可以得到
在第四章中,我们将利用基变换的概念来寻找一个基,使得自同态的变换矩阵有一个特别简单的(对角)形式。
在第十找章降维中,我们将利用基变换研究一个数据压缩问题,即找到一个基并在这个基上投影数据从而压缩数据,同时最小化压缩损失。
像与核
线性映射的像和核是具有某些重要性质的向量子空间。在下面,我们将详细地描述它们。
定义23像与核(Image and Kernal)
对于
以及 像/值域(image / range) 为:
原书籍中
我们也分别称
直观的说,核是被
像是一组向量

图2.12 线性映射
备注
考虑线性映射
当
总是成立,因此 ,特别地,零空间永远不会是空。 是 的子空间,而 是 的子空间当且仅当
, 为单射的 (一对一)
备注 :零空间与列空间
考虑
对于
即:像是
核/零空间
是齐次线性方程组 的通解,即使得 的列的线性组合为 和 中的元素核是
的子空间,其中 是矩阵的“宽度”。核关注列之间的关系,我们可以使用它来确定是否/如何将列表示为其他列的线性组合
例 线性映射的像和核
映射:
是线性的。为了确定
为了计算
这个矩阵是行最简阶梯型,我们可以使用之前提到的 Minus-1 技巧来计算核的基本。或者,我们将非主元列 (第3列和第4列)表示为主元列(第1列和第2列)的线性组合。第三列
定理2.24 秩-零化度定理
对于向量空间
秩-零化度定理(Rank-Nullity Theorem) 也被称为 线性映射的基本理论(fundamental theorem of linear mappings ,下面是通过该定理得到的结论:
如果
,那么 是非平凡的,即核不仅包含 ,且如果
是 相对于有序基的变换矩阵,且 ,则线性方程组 有无穷多个解。如果
,则以下三个说法等价 是单射的 是满射的 是双射的因为
仿射空间
在下面,我们将研究从原点偏移的空间,即不再是向量子空间的空间。此外,我们将简要讨论这些仿射空间之间类似线性映射的一些性质。
仿射子空间
备注:
在机器学习领域的文献中,线性和仿射之前的区别有时是不明确的,因此我们可以将线性空间/映射作为仿射空间/映射的参考。
定义 仿射子空间
使
称为
注意,如果
仿射子空间的例子是
备注:
考虑向量空间
仿射子空间通常用参数(parameters)来描述:考虑
其中
例 仿射子空间
一维仿射子空间称为线(line ),可以写成
,其中 和 是 的一维子空间。这意味着直线有支撑点 和方向向量 定义,如图2.13

图2.13 线为仿射子空间。 线
的二维仿射子空间称为平面(plane) 。平面的参数方程为 ,其中 。这意味这平面由支撑点 和张成方向空间的两个线性独向量 、 定义。在
中, 维仿射子空间称为超平面(hyperplanes) ,相应的参数方程为 ,其中 是构成 的 维子空间 的基。这意味着超平面由支撑点 和 个线性无关向量 张称方向空间定义。在 中,直线也是一个超平面。在 中,平台也是一个超平面。
备注 非齐次线性方程组于仿射子空间
对于
在
仿射映射
类似于向量空间之间的线性映射,我们也可以定义两个仿射空间之间的仿射映射。线性映射和仿射映射密切相关。因此,我们从线性映射中已经知道的许多性质( 例如线性映射的合成是一种线性映射)也适用于仿射映射。
定义 仿射映射
对于两个向量空间
为
每个仿射映射
也是线性映射 和平移 在 中的组合: 。其中映射 和 是唯一确定的。仿射映射
, 的合成 也是仿射映射仿射映射保持几何结构不变。它们还保留了尺寸比例和平行度。